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Prufungsantrag gem. § 44 PatG ist gestellt 

(3) Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache 

(57) Die vorliegende Erfindung betrifft eine Vorrichtung und 
ein Verfahren zur Behandlung von Sprachdaten aus ei- 
nem Gesprach zwischen einem ersten menschlichen und 
einem oder mehreren zweiten menschlichen Gesprachs- 
partnern und/oder einem Gesprachsannahmesystem 
oder zwischen einem ersten menschlichen und einem 
oder mehreren zweiten menschlichen Gesprachspart- 
nern, bei dem aus dem Gesprach Sprachdaten erzeugt 
werden, dadurch gekennzeichnet, 

- dass die Sprache des ersten Gesprachspartners automa- 
tisch erkannt wird, 

- dass die Sprachdaten ganz oder teilweise mittels eines 
automatischen Spracherkennungssystems analysiert und 
in Text umgewandelt werden. 
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Beschreibung 

[0001] Die vorliegende Erfindung betrifft ein Verfahren 
und ein elektronisches System zur automatischen Behand- 
lung von Sprachdaten aus einem Gesprach zwischen einem 5 
ersten menschlichen und einem oder mehreren zweiten 
mcnschlichcn Gesprach spartncrn und/odcr einem Ge- 
sprachsannahmesystem oder zwischen einem ersten 
menschlichen und einem oder mehreren zweiten menschli- 
chen Gesprachspartnera, bei dem aus dem Gesprach Sprach- 10 
daten erzeugt werden. 

[0002] Die automatische Spracherkennung ist seit gerau- 
mer Zeit aus der Praxis bekannt und wird zur maschinellen 
Umsetzung gesprochener Sprache in geschriebenen Text 
eingesetzt. 15 
[0003] Spracherkennung ssysteme lassen sich nach der 
raumlichen-zeitlichen Verknupfung von Sprachaufnahme 
und Sprachverarbeitung in zwei Gruppen unterteilen. 

"Online-Erkenner" sind Spracherkennungssysteme, 20 
die gesprochene AuBerungen unmittelbar in geschrie- 
benen Text umsetzen. Hierzu zahlen die meisten Biiro- 
diktiersysteme. 

- "Offline-Erkennungssysteme" fuhren eine zeitver- 
setzte Spracherkennung zu einer Diktataufzeichnung 25 
durch, die der Anwender beispielsweise mit einem di- 
gitalen Aufzeichnungsgerat angelegt hat. 

[0004] Die bislang aus dem Stand der Technik bekannten 
sprachverarbeitenden Systeme konnen keine sprachlichen 30 
Inhalte verstehen, d. h. es konnen nicht wie beim menschli- 
chen Sprachverstehen intelligente Hypothesen liber das ge- 
sagte a priori gebildet werden. Statt dessen wird der akusti- 
sche Erkennungsprozess durch das Heranziehen von text- 
oder anwendungsspezifischen Hypothesen unterstutzt. Die 35 
folgenden Hypothesen bzw. Erkennungsmodi sind bislang 
verbreitet: 

die Diktat- bzw. Vokabuiar-Erkennung bedient sich 
einer Verknupfung von domanenspezifischer Wortstati- 40 
stik und Wortschatzen. Die Diktat- bzw. Vokabel-Er- 
kennung findet bei Burodiktiersystemen Anwendung; 

die Grammatikerkennung stiitzt sich auf anwen- 
dungsspezifisch gestaltete Regelsysteme, integriert 
hierbei erwartete Satzbauplane unter Verwendung von 45 
Variablen; 

- die Einzelworterkennung bzw. Keyword- Spotting 
wird dann eingesetzt, wenn erkennungsunterstiitzende 
Sprachdaten fehlen und wenn innerhalb langerer 
Sprachpassagen einzelne festgelegte Schlusselworter 50 
erwartet werden. 

[0005] Ein Spracherkennungssystem zur Behandlung von 
Sprechinformationen, die zwischen einem menschlichen 
Gesprachspartner und einem automatischen Gesprachsan- 55 
nahmesystem, ausgetauscht werden, sind beispielsweise aus 
der Veroffentlichung "Spoken language systems beyond 
prompt and response" (BT Technol J Vol 14 No 1 January 
1996) bekannt. Das Dokumcnt offenbart ein Verfahren und 
ein System zur interaktiven Kommunikation zwischen ei- 60 
nem menschlichen Gesprachspartner und einem automati- 
schen Gesprachsannahmesystem. Das System weist eine 
Spracherkennung auf, die eine gesprochene AuBerung in 
einzelne oder mehrere Worter oder Wortketten konvertiert. 
Weiter ist ein Schritt der Bedeutungsextraktion vorhanden, 65 
in dem der erkannten Wortfolge eine Bedeutung zugemes- 
sen wird, aufgrund derer das Gesprach von Seiten des auto- 
matischen Gesprach sannahmesy stems einem nachsten 
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Schritt zugefuhrt werden kann. Mittels einer Datenbankab- 
frage kann zu einem erkannten Wort eine Zusatzinformation 
erhalten werden. Aufgrund der erkannten und ermittelten In- 
formationen wird eine Antwort generiert, die mittels eines 
Sprachsynthesizers in gesprochene Sprache transformiert 
und an den menschlichen Gesprachspartner weitergegeben 
wird. Sofcrn der mcnschlichc Gesprachspartner iibcr ein 
multimodales System, d. h. (Internet- PC] mit Sprachan- 
schluss) mit dem Gesprachsannahmesystem kommuniziert, 
konnen ihm Informationen, die das automatische Ge- 
sprachsannahmesystem ermittelt hat, visuell am Bildschirrn 
und/oder akustisch iiber PC-Lautsprecher bzw. Kopfhorer 
zur Verfugung gestellt werden. Fiir weitere Details sei auf 
das genannte Dokument und die dort zitierte Sekundarlitera- 
tur verwiesen. 

[0006] Trotz diesem hohen Grad an Automatisierung sind 
solche Spracherkennungssysteme insbesondere hinsichtlich 
der Erkennung der Sprachinformation aufgrund der von Per- 
son zu Person unterschiedlichen Aussprache problematisch, 
wenn das Spracherkennungssystem nicht im Rahmen einer 
Lernphase auf die konkrete Aussprache einer Person einge- 
stellt ist. Insbesondere Gesprachsannahmesysteme, bei de- 
nen ein Gesprachspartner eine Information erfragt oder eine 
Information abgibt, sind aufgrund der hohen Fehlerrate 
beim Spracherkennungsprozess und der unterschiedlichen 
Reaktion der einzelnen Gesprachspartner noch nicht prakti- 
kabel. Daher ist es bei vielen Anwendungen immer noch 
zwingend notwendig, anstelle eines Gesprachsannahmesy- 
stems einen zweiten Gesprachspartner einzusetzen, der In- 
formationen des ersten Gesprachspartners entgegennimmt 
oder zur Verfugung stellt. Falls der zweite Gesprachspartner 
Informationen entgegennimmt, ist diese - in welcher Form 
auch immer zumeist aufzunehmen, niederzuschreiben 
oder in einen Computer einzugeben. 

[0007] Des weiteren ergibt sich haufig die Notwendigkeit, 
dass solche Gesprache nachbearbeitet werden miissen, z. B. 
um bei einem Verkaufsgesprach oder einer Vertragsverhand- 
lung nachvollziehen zu konnen, wer was in welchem Zu- 
sammenhang gesagt hat. Die Nachbearbeitung aus der Erin- 
nerung oder aus mitgeschriebenen Notizen ist haufig fehler- 
haft, und der zeitliche Ablauf lasst sich kaum genau rekon- 
struieren. Mitschnitte auf Tontragera sind zwar moglich, sie 
lassen sich jedoch nur schwer in die gangige EDV-Land- 
schaft integrieren. Digitate Aufzeichnungen der akustischen 
Daten haben einen hohen Bedarf an Speicherplatz. 
[0008] Diese Verfahrensweisen haben nicht nur hohe Per- 
sonalkosten zur Folge, sondern nehmen auch sehr viel Zeit 
in Anspruch, so dass der Gesprachsdurchsatz sowie die 
Nachbereitung nicht optimal ist. 

[0009] Ein weiteres Problem stellt sich, wenn eine Viel- 
zahl von Gesprachen gefiihrt werden und diese dann, sofern 
sie in irgend einer Fonn gespeichert sind, moglichst schnell 
und einfach aufgefunden werden sollen. Insbesondere ist ge- 
wiinscht, z. B. fur statistische Zwecke einen einfachen Zu- 
griff auf die Gesprachs daten zu haben. 
[0010] Zusatzlich ware es vorteilhaft, wenn man einen 
Gesprachspartner automatisch identifizieren konnte. 
[0011] In diesem Zusammenhang kann auch die Situation 
entstchen, dass ein Gesprachspartner in einer Sprache 
spricht, auf die das Spracherkennungssystem nicht einge- 
stellt ist. In so einem Fall ware es vorteilhaft, wenn die Spra- 
che des betreffenden Gesprachspartners automatisch er- 
kannt werden konnte. 

[0012] Der vorliegenden Erfindung liegt daher die Auf- 
gabe zugrunde, ein Verfahren bereitzustellen, bei dem der 
Gesprachsdurchsatz erhoht und vor allem die Sprache des 
Gesprachspartners identifiziert werden kann. 
[0013] Diese Aufgabe wird erlindungsgemaB gelost durch 
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ein Verfahren zur Behandlung von Sprachdaten aus einem 
Gesprach zwischen einem ersten menschlichen und einem 
oder mehreren zweiten menschlichen Gesprach spartnern 
und/oder einem Gesprachsannahmesystem oder zwischen 
einem ersten menschlichen und einem oder mehreren zwei- 5 
ten menschlichen Gesprachspartnern, bei dem aus dem Ge- 
sprach Sprachdaten crzcugt werden, dadurch gckcnnzcich- 
net, 

und dass die Sprache des ersten Gesprachspartners 10 
automatisch erkannt wird 

- dass die Sprachdaten ganz oder teilweise mittels ei- 
nes automatischen Spracherkennungssystems analy- 
siert und in Text umgewandelt wird. 

15 

[0014] Sprachdaten im Sinne der Erfindung sind die Daten 
eines akustischen Gespraches, die mit Hilfe eines techni- 
schen Aufnahmesystems (z. B. Mikrofon) aus den Ge- 
sprachsauBerungen erzeugt und/oder registriert werden kon- 
nen. Ein automatisches Spracherkennungssystem im Sinne 20 
der Erfindung ist ein System, das solche Sprachdaten aus ei- 
ner gesprochene AuBerung automatisch in Text umwandeln 
kann. Text im Sinne der Erfindung ist weit zu interpretieren, 
es bedeutet orthographische bzw. textuelle Information, die 
z. B. als Text an einer Ausgabevorrichtung wie Drucker 25 
oder Bildschirm als Text im ublichen Sinne dargestellt wer- 
den kann, die aber auch als z. B. als (Binar-)Code auf einem 
digitalen Speichermedium gespeichert werden kann. 
[0015] Gegenstand der Erfindung ist weiter ein System 
zur Durchfiihrung dieser Verfahren, aufweisend 30 

mindestens eine elektronische Vorrichtung zur Er- 
kennung und Extrahierung von Sprachdaten (Spracher- 
kennungssystem), die mit einer oder mehreren Vorrich- 
tungen zur Erfassung von Sprachdaten (Gesprachsan- 35 
nahmesystem) verbindbar ist, und 

ein oder mehrere Mittel zur Darstellung und/oder 
Speicherung von erkannten und/oder extrahierten 
Sprachdaten, wobei das oder jedes Mittel zur Darstel- 
lung und/oder Speicherung direkt oder indirekt mit der 40 
Erkennungs- und Ex trahierungs vorrichtung verbunden 
ist. 

[0016] "Direkt" bedeutet hier, dass die Verbindung liber 
ein Kabel hergestellt ist, "indirekt" bedeutet hier drahtlos, 45 
beispielsweise uber das Internet, iiber Funk- oder Infrarot- 
verbindung. 

[0017] Gegenstand der Erfindung ist ebenso ein Compu- 
terprogramm mit Programmcode-Mitteln, um alle Schritte 
von einem beliebigen der erfindung sgemaB en Verfahren 50 
auszufiihren, wenn das Programm auf einem Computer aus- 
gefuhrt wird, sowie ein Computerprogrammprodukt, das ein 
derartiges Programm auf einem computerlesbaren Speicher- 
medium enthalt, sowie ein Computer mit einem fliichtigen 
oder nichtfliichtigen Speicher, in dem ein derartiges Pro- 55 
gramm gespeichert ist. 

[0018] Besondere Ausfuhrungsformen des erfindungsge- 
maBen Verfahrens bzw. besondere Ausgestaltungen der er- 
findungsgcmaBcn Vorrichtungcn sind in den jeweiligen Un- 
teranspriichen offenbart. Es konnen auch einzelne oder meh- 60 
rere oder beliebige Kombinationen der in den jeweiligen 
Unteranspriichen einer Kategorie offenbarten Merkmale zu- 
sammen mit den Merkmalen des jeweiligen Hauptanspruchs 
erfinderische Losungen der der Erfindung zugrunde liegen- 
den Aufgabe darstellen. 65 
[0019] Die Erkennung der Sprache eines Gesprachspart- 
ners kann beispielsweise folgendermaBen durchgefuhrt wer- 
den: Die Sprachdaten werden online, d. h. moglichst zeitnah 
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bzw. nahezu zeitgleich, einer Frequenzanalyse unterzogen. 
Dies kann mittels der bekannten Algorithmen, beispiels- 
weise der Fouriertransformation, durchgefuhrt werden. Als 
Ergebnis erhalt man ein Frequenzspektrum, in dem einer be- 
stimniten Schallfrequenz eine bestimmte Lautstarke zuge- 
ordnet ist. Hat man fiir mehrere Sprachen charakteristische 
Merkmale solchcr Spcktrcn, die also fur cine bestimmte 
Sprache tj'pisch sind, vorab gespeichert, so kann man einen 
Vergleich der online aufgenommenen Spektren mit den ge- 
speicherten durchfuhren und bei einer gefundenen Uberein- 
stimmung die entsprechende Sprache dem betreffenden Ge- 
sprachspartner zuordnen und das Spracherkennungssystem 
auf diese Sprache einstellen, oder das Gesprach automatisch 
an eine Annahmestelle weiterleiten, die fur die betreffende 
Sprache vorgesehen ist. Ist die Zuordnung der Sprache nicht 
eindeutig moglich, weil z. B. die Aufnahme der Sprachdaten 
zu schlecht ist oder der Sprechende zu undeutlich spricht, 
konnen sich mehrere Sprachen als mogliche Sprachen erge- 
ben. Dann kann eine Wahrscheinlichkeitsbetrachtung durch- 
gefuhrt werden, dergestalt, dass die Sprache als die wahr- 
scheinlichste angesehen wird, fiir die beim Vergleich die 
groBte Zahl an ubereinstimmenden Merkmalen gefunden 
wird. Durch wiederholte Aufnahme von Spektren kann bei 
entsprechend langer Gesprachsdauer bzw. bei entsprechen 
haufigen AuBerungen des jeweiligen Gesprachspartners die 
Genauigkeit der Erkennung der Sprache iterativ gesteigert 
werden. 

[0020] Ein anderes Verfahren zur Erkennung der Sprache 
kann darin bestehen, dass man zunachst die vorab einge- 
stellte Sprache des Spracherkennungssystems beibehalt und 
versucht, den Sprachdaten bzw. AuBerungen des Gesprachs- 
partners Worter aus dem Wortschatz der betreffenden Spra- 
che zuzuordnen. Sollte die Anzahl von erkannten und zuge- 
ordneten Wortern zu gering sein, d. h. unter einer vorein- 
stellbaren Schwelle liegen, wird der Wortschatz einer oder 
mehrerer anderen Sprachen zugrunde gelegt. Diejenige 
Sprache, bei deren Wortschatz die meisten Worter erkannt 
und zugeordnet werden konnen, wird dann als die wahr- 
scheinlichste Sprache ausgewahlt und der weiteren Sprach- 
erkennung zugrunde gelegt. 

[0021] Wie bereits erwahnt, ist bekannt, dass automati- 
sche Gesprachsannahmesysteme eingesetzt werden konnen, 
wenn der erwartete Gesprachsinformationsfluss weitgehend 
vorbestimmt ist, wenn also ein Gesprachspartner beispiels- 
weise eine Antwort auf eine Frage — ja oder nein, eine Zahl 
zwischen 1 und 5 etc. - dem Gesprachsannahmes}'stem mit- 
teilt. In diesem Fall konnen die Sprachdaten vom Spracher- 
kennungssystem mit einer hohen Erfolgsrate richtig erkannt 
werden und die entsprechenden Informationen konnen zur 
weiteren Verarbeitung gespeichert werden. 
[0022] Fiir komplexere Gesprache ist erfindungsgemaB 
weiter erkannt worden, dass anstelle eines Gesprachsannah- 
mesystems ein zweiter Gesprachspartner erforderlich ist, 
um einen Informationsaustausch garantieren zu konnen, der 
nicht durch fehlerbehaftete Spracherkennungssysteme ver- 
falscht wird. Insoweit ist jedoch vorgesehen, dass dem zwei- 
ten Gesprachspartner Hilfestellungen zur Verfiigung gestellt 
werden, die ihm das miihsame und zeitaufwendige Einge- 
ben oder Aufnchmcn von Daten crlcichtcrn bzw. abnehmcn. 
Hierzu werden die Sprachdaten des Gesprachs des ersten 
und des oder jeden zweiten Gesprachspartners einem 
Spracherkennungssystem zugefiihrt. Es ist auch denkbar, 
dass die Sprachdaten lediglich des ersten Gesprachspartners 
dem Spracherkennungssystem zugefiihrt werden. Das 
Spracherkennungssystem fiihrt nun mindestens fiir eine Un- 
termenge der Sprachdaten - z. B. die Sprachdaten lediglich 
eines Gesprachspartners, ganz allgemein fiir alle Sprachda- 
ten - die Spracherkennung durch. Selbst wenn diese nur teil- 
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weise erfolgreich ist, konnen die hieraus extrahierbaren In- 
formationen einem Gesprachspartner zur Verfiigung gestellt 
werden. Hierdurch konnen zumindest nahezu fehlerfrei ein- 
fache Daten wie Zahlen oder kurze Antworten auf Fragen 
vom Spracherkennungss3'stem erkannt werden, die dem Ge- 5 
sprachspartner sodann in einer speicherbaren Form vorlie- 
gcn. 

[0023] Es kann jedoch auch fiir komplexere Gesprache 
das Gesprach zunachst von einem automatischen Ge- 
sprachsannahmesystem entgegengenommen werden, wel- 10 
ches das Gesprach dann eine den oder jeden zweiten Ge- 
sprachspartner weiterleitet oder diesen hinzuschaltet. 
Ebenso kann das Gesprach von dem automatischen Ge- 
sprachsannahmesystem hergestellt werden, indem dieses 
System so eingestellt ist, dass es Personen anhand einer vor- 15 
definierten Liste (z. B. Telefonbuch) automatisch per Tele- 
fon anwahlt und anschlieBend den oder jeden zweiten Ge- 
sprachspartner hinzuschaltet oder das Gesprach an diesen 
weiterleitet. So konnten beispiels weise einfache Meinungs- 
umfragen automatisch erstellt werden. 20 
[0024] Bevorzugt ist das Spracherkennungssystem in das 
automatische Gesprachsannahmesystem integriert. 
[0025] Falls ein Gesprachsannahmesystem eingesetzt 
wird, ist vorgesehen, dass das Gesprachsannahmesystem als 
ein "Interactive Voice Response System" (IVRS) arbeitet. 25 
Ein solches IVRS-System ist in der Lage, mit einem Ge- 
sprachspartner - wenn auch in eingeschranktem Rahmen - 
zu kommunizieren und in Abhangigkeit seiner Sprachein- 
gabe entsprechend zur reagieren. Vorzugs weise ist ein auto- 
matisch arbeitendes IVRS-System vorgesehen. 30 
[0026] Eine hohe Erkennungsrate kann in besonders vor- 
teilhafter Weise dann erzielt werden, wenn der Gesprachs- 
partner, dessen Sprachdaten zu analysieren sind, mit vorge- 
gebenen Gesprachsstrukturen konfrontiert wird. Dies kon- 
nen Erklarungen und/oder Fragen des Gesprachsannahme- 35 
systems bzw. des zweiten Gesprachspartners sein, die in die- 
ser Weise dem Spracherkennungssystem schon bekannt 
sind. Auf die gezielten Fragen bzw. die vorgegebenen Ge- 
sprachsstrukturen wird dann sehr wahrscheinlich der damit 
konfrontierte Gesprachspartner in der Regel "erwartungsge- 40 
maB" reagieren, so dass aus dieser erwartungsgemaBen Re- 
aktion die darin enthaltene Information mit hoher Wahr- 
scheinlichkeit richtig erkannt und dernentsprechend extra- 
hiert bzw. abgespeichert werden kann. Insoweit konnte hier 
in besonders vorteilhafter Weise zur Spracherkennung die 45 
Methode der Grammatikerkennung eingesetzt werden. 
[0027] Zur praktischen Realisierung eines Gesprachsan- 
nahmesystems und/oder eines Spracherkennungssystems ist 
vorgesehen, dass mindestens ein Computer eingesetzt wird. 
Hierbei kann es sich bei dem Gesprachsannahmesystem und 50 
bei dem Spracherkennungssystem um ein und denselben 
Computer handeln. In bevorzugter Ausgestaltung ist jedoch 
vorgesehen, dass lediglich ein Computer als Gesprachsan- 
nahmesystem eingesetzt wird. Die Sprachdaten des Ge- 
sprachs werden dann einem anderen Computer zugeleitet, 55 
auf dem das Spracherkennungssystem implementiert ist. Ein 
solcher Computer sollte hinreichende Leistungsdaten auf- 
weisen. Dariiber hinaus weist ein als Gesprachsannahmesy- 
stem cingcsctztcr Computer cine Schnittstcllc zum Auf- 
bauen einer Telefon- und/oder Videoverbindung auf. Eine 60 
weitere Schnittstelle ist vorgesehen, iiber die Sprach- bzw. 
und Videodaten ein- bzw. ausgegeben zu werden. 
[0028] Die Spracherkennung selbst konnte auf einem oder 
auf mehreren Computern ausgefiihrt werden. Insbesondere 
bei zeitkritischen Anwendungen wird die Spracherkennung 65 
vorzugsweise auf mehreren Computern vorzugsweise paral- 
lel ausgefiihrt. So konnte beispielsweise der Spracherken- 
nungsprozess in mehrere Teilprozesse aufgeteill werden, 



524 A 1 

6 

wobei jeder Teilprozess auf einem Computer ausgefiihrt 
wird. Bei der Unterteilung in Teilprozesse konnten jedem 
Teilprozess einzelne Satze oder Neb ens atze zugeordnet wer- 
den, eine zeitliche Aufteilung der Sprachdaten - beispiels- 
weise in Zeitintervalle von jeweils 5 Sekunden - ware eben- 
falls denkbar. Falls der Computer mehrere Prozessoren 
(CPUs) aufwcist, konnten die Teilprozesse auf die Prozesso- 
ren des Computers verteilt parallel ausgefiihrt werden. 
[0029] Falls die Rechenleistung eines einzelnen Compu- 
ters zur Spracherkennung und/oder fur das Gesprachsannah- 
mesystem nicht ausreicht, konnte ein Computer-Netzwerks- 
ystem vorgesehen sein, so dass diese Aufgaben auf mehre- 
ren Computern parallel ausfuhrt werden. Insbesondere 
konnten einzelne Computer des Netzwerksystems spezielle, 
unterschiedliche Spracherkennungsmodi ausfuhren, so dass 
jeder Computer die gleichen Sprachdaten unter einem ande- 
ren Gesichtspunkt analysiert. 

[0030] Insbesondere bei der Auswertung von Sprachda- 
ten, die von einem Gesprachsannahmesystem aufgezeichnet 
worden sind, konnte eine Spracherkennung individuell auf 
einen Analyseauftrag ausgerichtet sein. So konnte beispiels- 
weise eine Zuschauerumfrage oder ein Zuhorerquiz einer 
Fernseh- oder Radiosendung automatisch dahingehend aus- 
gewertet werden, welche politische MaBnahme beispiels- 
weise bei den Zuschauern bzw. in der Zuhorerschaft eine ho- 
here Akzeptanz hat. Hierbei konnte als Analyseauftrag bei- 
spielsweise vorgegeben sein, herauszufinden, ob MaBnahme 
A oder MaBnahme B bevorzugt wird, so dass die Informa- 
tion und die Kenntnis der moglichen Varianten der Umfrage 
bei der Spracherkennung beriicksichtigt bzw. der Spracher- 
kennung als zusatzliche Information zur Verfiigung gestellt 
werden. 

[0031] Falls die Sprachdaten von einem Gesprach zwi- 
schen zwei Gesprachspartnern stammen, ist in ganz beson- 
ders bevorzugter Weise vorgesehen, dass die Spracherken- 
nung individuell auf einen Analyseauftrag ausgerichtet 
wird. Dieser konnte beispielsweise die Spracherkennung der 
Sprachdaten hauptsachlich von einem der beteiligten Ge- 
sprachspartner umfassen, wobei die Analyse hierbei bei- 
spielsweise speziell auf die Erkennung der Telefonnummer 
des einen Anrufers oder Ahnliches gerichtet sein kann. 
[0032] Als Methoden zur Spracherkennung sind die Dik- 
tat-, Grammatik-, Einzelworterkennung und/oder das Key- 
word-Spotting vorgesehen. Hierbei konnte beispielsweise in 
Abhangigkeit des aktuellen Gesprachszustands von der ei- 
nen Spracherkennungsmethode auf die andere Spracherken- 
nungsmethode umgeschaltet werden, wenn absehbar ist, 
dass eine andere Spracherkennungsmethode fiir den aktuel- 
len Gesprachszustand die besseren Ergebnisse bei der 
Spracherkennung verspricht. Vorzugsweise konnten die un- 
terschiedlichen Methoden der Spracherkennung auch paral- 
lel eingesetzt werden, was beispielsweise auf mehrere Com- 
puter parallel verteilt durchgefiihrt wird. 
[0033] Ganz besonders bevorzugt ist vorgesehen, die 
Spracherkennung wiederholt auszufiihren. Hierzu ist es 
moglich, die Sprachdaten bzw. die zumindest weitgehend 
unverandert gespeicherten Sprachdaten eines Gesprachs 
wiederholt unterschiedlichen oder gleichen Spracherken- 
nungsprozessen zuzufiihrcn. Eine wicdcrholtc Spracherken- 
nung ist insbesondere bei einem Offline-Erkennungssystern 
vorgesehen, da hier eine Zeitverzogerung der Spracherken- 
nung moglich ist. 

[0034] Fiir eine weitere Spracherkennungsstrategie ist 
vorgesehen, eine dynamische Anpassung der Spracherken- 
nung vorzunehmen. Hierbei konnte beispielsweise das Vo- 
kabular zur Spracherkennung variiert und/oder angepasst 
werden. So konnte eine zunachst eingesetzte Spracherken- 
nungsmethode - beispielsweise die Diktaterkennung - eine 
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geringe Erkennungsrate ergeben, so dass abzusehen ist, dass 
die Beibehaltung der Diktaterkennung nur wenig Aussicht 
auf Erfolg haben wird. Sodann ist vorgesehen, dynamisch 
eine andere Spracherkennungsmethode einzusetzen, wobei 
auch bei der neu eingesetzten Sprachmethode sofort die Er- 5 
kennungsrate analysiert wird und gegebenenfalls ein weite- 
rcr dynamischcr Sprachcrkcnnungsschritt folgt. Hicrbci 
konnte auch vorgesehen sein, auf mehreren Computern par- 
allel die gleiche Spracherkennungsmethode auf die Sprach- 
daten anzuwenden, jedoch wird auf jedem Computer ein an- 10 
deres Vokabular zur Spracherkennung eingesetzt. Eine un- 
mittelbare Analyse der Erkennungsrate dieser parallel ver- 
laufenden Spracherkennungsprozesse kann eine dynami- 
sche Anpassung bzw. Steuerung der weiteren Spracherken- 
nung zur Folge haben. 15 
[0035] Zusatzlich oder alternativ ist ein ganz besonders 
bevorzugter Verfahrensschritt vorgesehen, der unter dem 
Oberbegriff "Vokabulardynamisierung" zusammengefasst 
werden kann. Hierbei werden die Sprachdaten mehrmals 
analysiert. In einem ersten Erkennungsschritt werden die 20 
Sprachdaten klassifiziert. Hierzu konnten bei spiels weise 
Methoden des Keyword-Spotting eingesetzt werden. In Ab- 
hangigkeit des Ergebnisses der Sprachdatenklassiflzierung 
werden die Sprachdaten in einem weiteren Erkennungs- 
schritt unter Hinzuziehung von speziellem Vokabular erneut 25 
untersucht. Hierbei wird dem Erkennungsvorgang ein Voka- 
bular zugrundegelegt, das in direktem oder im naheren Zu- 
sammenhang mit dem Ergebnis des Sprachdatenklassifizie- 
rungsschritts liegt. Hierbei ist es durchaus denkbar, dass 
dem Erkennungsschritt der Sprachdaten ein Vokabular aus 30 
mehreren speziellen Bereichen zugrundegelegt wird. Dieser 
weitere Erkennungsschritt wird vorzugs weise auf die ur- 
sprunglichen Sprachdaten angewandt, wobei jedoch die im 
ersten Erkennungsschritt gewonnenen Informationen hinzu- 
gezogen werden konnen. Demgemass werden die Verfah- 35 
rensschritte der Vokabulardynamisierung immer wieder auf 
die urspriinglichen Sprachdaten angewandt. 
[0036] In einer bevorzugten Ausfuhrungsform des erfin- 
dungsgemassen Verfahrens wird das Gesprach automatisch 
an eine fiir die betreffende Sprache vorgesehene Annahme- 40 
stelle weitergeleitet. Wahrend der Weiterleitung oder bei 
Nichtverfiigbarkeit von Annahmestellen kann der Ge- 
sprachspartner mit Hilfe von Sprachprompts, das sind vorab 
oder automatisch erzeugte Informationssequenzen, automa- 
tisch informiert werden. In einer weiteren bevorzugten Aus- 45 
fiihrungsform lauft der Erkennungsvorgang der Sprache im 
Hintergrund ab. 

[0037] In einer weiteren bevorzugten Ausfuhrungsform 
werden die Sprachdaten nicht nur in textuelle Information 
umgewandelt, sondern auch einer Frequenzanalyse unterzo- 50 
gen. Die erhaltenen Spektren konnen zeitnah, d. h. online 
aufgenommen und ebenso zeitnah auf einem Anzeigegerat 
wie einem Bildschirrn ausgegeben und damit einem Ge- 
sprachspartner zur Verfugung gestellt werden. Bevorzugt 
werden einzelnen Wortern des erkannten Textes einzelne 55 
zeitliche Abschnitte der Frequenzanalyse bzw. einzelne 
Spektren zugeordnet und/oder abgespeichert. Ebenso kon- 
nen einzelne Spektren gespeichert und den betreffenden 
Wortern zugeordnet werden. Wcitcr bevorzugt werden bc- 
kannte Daten des Anrufers solchen Spektren zugeordnet. 60 
Vergleicht man dann bei gleichen Wortern die Spektren von 
unterschiedlichen Anrufen, so kann ermittelt werden, ob die 
betreffenden Gesprachspartner identisch sind. Entsprechend 
kann auch die Identitat eines Anrufers, der sich nicht na- 
mentlich zu erkennen gibt, ermittelt werden, wenn ein Spek- 65 
trum eines aus dem Gesprach gefallenen Wortes mit einer 
bereits vorhandenen "Kartei" verglichen wird - sofern der 
Gesprachspartner bereits einmal identiliziert wurde. 
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[0038] Ein weiterer Vorteil der Frequenzanalyse besteht 
darin, dass die subjektive Stimmung eines Gesprachspart- 
ners erkannt werden kann. Dies kann beispielsweise derge- 
stalt durchgeflihrt werden, dass das Spektrum eines be- 
stimmten Wortes bei unterschiedlichen Stimmungen des je- 
weils Sprechenden aufgenommen und gespeichert wird. 
Dies kann beispielsweise in Vorvcrsuchcn oder bei bckann- 
ter Stimmung eines bekannten Gesprachspartner durchge- 
fiihrt werden. Aus dem Vergleich der gespeicherten Spek- 
tren mit einem Spektrum des aktuell Gesprochenen kann 
dann auf die aktuelle Stimmung des Sprechenden geschlos- 
sen werden. Dies kann insbesondere bei Verkaufsgespra- 
chen oder bei Vertragsverhandlungen niitzlich sein. Zum ei- 
nen, wenn es dem jeweils anderen Gesprachspartner online 
gezeigt wird, zum anderen in der Nachbereitung, wenn man 
das Gesprach anhand der gespeicherten Daten (Worter und 
zugehorige Spektren) im Nachhinein analysiert. 
[0039] In weiter bevorzugter Ausfuhrungsform kann bei 
einer bestimmten erkannten Stimmung eines Gesprachspart- 
ners eine bestimmte Aktion eines Gesprachsannahmesy- 
stems automatisch bzw. programmgesteuert initiiert werden. 
Beispielsweise kann erkannter schlechter Stimmung eines 
Gesprachspartners automatisch eine bestimmte Musik ein- 
gespielt werden, die auf eine Verbesserung der Stimmung 
des Gesprachspartners hinwirkt. Die erkannte Stimmung 
kann weiter dem Gesprach bei der Speicherung als Klassifi- 
kation zugeordnet werden. Dies kann bei einer statistischen 
Auswertung bei einer Vielzahl von Gesprachen vorteilhaft 
sein. 

[0040] In einer bevorzugten Ausfuhrungsform folgt auf 
die Umwandlung der Sprachdaten in Text, d. h. in orthogra- 
phische bzw. textuelle Information, in einem weiteren, zu- 
satzlichen Schritt die Untersuchung des erhaltenen Textes 
auf Schliissel worter. AnschlieBend wird dem Gesprach an- 
hand der erkannten Schliissel worter eine Klassifikation zu- 
geteilt. Diese Verfahrens schritte konnen beispielsweise da- 
durch umgesetzt werden, dass der Text auf Schliisselworter 
wie "Fehler", "beschweren", "zuriickgeben" oder ahnliches 
durchsucht wird. Falls eines oder mehrere dieser Worter ge- 
funden wird, kann dem Gesprach ein Klassifikation wie 
"Beschwerde" zugeordnet werden. 

[0041] Schliisselworter und zugehorige Klassifikation 
konnen in einer oder mehreren Tabellen gespeichert und ein- 
ander zugeordnet sein, beispielsweise auf die Weise, dass in 
einer Spalte einer Tabelle mit demNamen "Beschwerde" die 
oben genannten Schliisselworter in den Zeilen darunter an- 
geordnet sind. Es konnen aber auch die Schliisselworter in 
einer Datei mit dem Namen der betreffenden Klassifikation 
abgespeichert sein. In bevorzugter Ausfuhrungsform ist die 
Klassifikation auf den Zweck des Anrufs gerichtet. Bei- 
spiele hierfiir sind: Information, Beschwerde, Problem, Pro- 
dukt X, . . .. Fiir diese Klassifikationen geeignete Schliissel- 
worter ergeben sich fiir den Fachmann von selbst. Geeignete 
Schliisselworter konnen auch aufgrund von Versuchen oder 
von Auswertungen bereits gespeicherter Gesprache leicht 
ermittelt werden. Zusatzlich oder alternativ kann die Klassi- 
fikation auch auf die Stimmung des Gesprachspartners ge- 
richtet sein. Werden in einem Beschwerdegesprach uber 
cine crfolgtc Licfcrung einer Sachc Schliisselworter wie 
"Schrott" und "unzumutbar" gefunden, kann das Gesprach 
beispielsweise der Klassifikation "gereizt" zugeordnet wer- 
den. Die genannten Beispiele sollen lediglich als Anhalt- 
punkt dienen. Der Anwender kann sich fiir seinen Bedarf, 
der am seinem jeweiligen Geschaftszweck angelehnt ist, 
seine eigenen Wortkombinationen leicht selbst zusammen- 
stelien. Die Klassifikation wir vorteilhafterweise zusammen 
mit dem Gesprachstext gespeichert. Alternativ kann auch 
eine Verkniipfung des gespeicherten Gesprachs mit der 
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ebenfalls gespeicherten Klassifikation erfolgen. 
[0042] Uber eine derartige Klassifikation konnen bei- 
spielsweise Gesprache, die ein bestimmtes Produkt X, be- 
treffen statistisch ausgewertet werden. Dies kann dem Her- 
steller helfen, seine Produktqualitat zu verbessern oder bes- 5 
ser auf Kundenwiinsche einzugehen. 

[0043] In cincr wcitcrcn bcvorzugtcn Ausfuhrungsform 
des erfindungsgemaBen Verfahrens erfolgt ein Abspeichern 
des erkannten Textes mit zugeordnetem zeitlichen Verlauf. 
Dies hat unter anderem den Vorteil, dass fur die Aufzeich- 10 
nung von Gesprachen auf Datentragern fur Datenverarbei- 
tungsanlagen nun weniger Speicherplatz erforderlich ist als 
notwendig ware, wenn das Gesprach akustisch aufgezeich- 
net werden sollte, beispielsweise als "wav-Datei". Wiirde 
ein Gesprach als eine derartige Datei gespeichert werden, 15 
wiirden pro Minute Gesprachsdauer etwa 8 MByte ge- 
braucht werden. Wird das Gesprach erfindungsgemaB in 
Text gewandelt und gespeichert, benotigt das gleiche Ge- 
sprach nur einige KByte. 

[0044] Aus der gespeicherten Zeitlichen Abfolge des Ge- 20 
sprachs ist ersichtlich, was zu welchem Zeitpunkt gespro- 
chen wurde. Daraus kann dann der Inhalt und die Bedeutung 
der einzelnen Gesprachsabschnitte im Nachhinein besser 
und genauer errnittelt werden. 

[0045] In einer besonderen Ausfuhrungsform wird der er- 25 
kannte Text dem jeweiligen Gesprachspartner zugeordnet 
werden. Dies kann beispielsweise dadurch geschehen, dass 
man die Stimmen mit Hilfe einer Frequenzanalyse analy- 
siert, daraus Charakteristika fiir den jeweiligen Gesprachs- 
partner errnittelt und uber diese Charakteristika eine Zuord- 30 
nung der gesprochenen und erkannten Worter zu dem jewei- 
ligen Gesprachspartner vornimmt. Unterstiitzend oder alter- 
nativ dazu kann eine Zuordnung auch anhand von Schliis- 
selworten, beispielsweise Namen, erfolgen. 
[0046] In einer weiteren bevorzugten Ausfuhrungsform 35 
kann die zeitliche Abfolge der erkannten Worter auf einem 
Bildschirm graphisch dargestellt werden. Dies kann bei- 
spielsweise auf die Weise erfolgen, dass die erkannten Wor- 
ter auf einer Zeitskala angeordnet sind. Ist die Zahl der Wor- 
ter zu groB um noch ubersichtlich dargestellt zu werden, 40 
konnen lediglich einzelne Schlusselworter, die in einer 
vorab eingerichteten Tabelle definiert sein konnen, auf der 
Zeitskala angeordnet sein. Die graphische Darstellung kann 
auf einem Computer so implementiert sein, dass durch an- 
wahlen von einzelnen Schlusselwortern der vollstandige, zu 45 
einem vorwahlbaren Zeitabschnitt gehorige Text dargestellt 
wird. Dies fuhrt vor allem bei langeren Gesprachen zu einer 
erheb lichen Zeiteinsparung. Dies kann online oder zeitver- 
setzt erfolgen. Eine Online-Darstellung hat den Vorteil, dass 
der betreffende (zweite) Gesprachspartner sich wahrend des 50 
Gesprachs liber das bereits Gesprochene informieren kann. 
[0047] Im folgenden werden iterativ weitere Erkennungs- 
schritte durchgefiihrt, die im Idealfall zur vollstandigen Er- 
kennung der gesamten Sprachdaten oder zumindest einer 
Untermenge der Sprachdaten fiihrt. Die weiteren iterativen 55 
Erkennungsschritte werden vorzugsweise uber Erkennungs- 
wahrscheinlichkeiten gesteuert, so dass hierdurch beispiels- 
weise ein Abbruchkriterium fiir weitere Erkennungsschritte 
gcgcbcn sein kann, wenn z. B. sich die Erkcnnungswahr- 
scheinlichkeit nicht mehr andert. 60 
[0048] Aus Sicherheitsgriinden konnen die Sprachdaten 
des Gesprachs selbstverstandlich weitgehend unverandert 
gespeichert werden. Das Abspeichern konnte hierbei samtli- 
che Sprachdaten des Gesprachs umfassen. Falls beispiels- 
weise ein Gesprachspartner oder das Gesprachsannahmesy- 65 
stem vorgegebene, dem Spracherkennungssystem bekannte 
Gesprachsstrukturen verwendet, konnten lediglich die 
Sprachdaten des anderen Gesprach spartners abgespeichert 
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werden. Grundsatzlich kann bei dem Speichervorgang vor- 
gesehen sein, zusatzlich zu den Sprachdaten Marker bzw. 
Bookmarks abzuspeichern, so dass das abzuspeichernde Ge- 
sprach hierdurch sinnzusammenhangend oder logisch unter- 
teilt wird. Diese Unterteilung konnte bei einer nachfolgen- 
den Sprachdatenerkennung den Vorgang der Informations- 
cxtraktion bcschlcunigcn oder vcrcinfachcn. Wcitcrhin kann 
vorgesehen sein, dass Informationen iiber den aktuellen Ge- 
sprachszustand bei der Spracherkennung berucksichtigt 
werden. So konnte beispielsweise zu Beginn des Gesprachs 
der Umstand berucksichtigt werden, dass die beiden Ge- 
sprachspartner sich gegenseitig identifizieren, so dass eine 
Spracherkennung hierzu entsprechende Vokabel- bzw. 
Grammatikerkennungsmodi einsetzt. Diese Informationen 
iiber den aktuellen Gesprachszustand, wie auch immer diese 
gewonnen werden, konnten ebenfalls zusammen mit den - 
Sprachdaten gespeichert werden. 

[0049] In ganz besonders bevorzugter Weise ist vorgese- 
hen, dass das Spracherkennungssystem und/oder der 
Spracherkennungsvorgang mit einem Datenbanksystem, 
wie z.B. R/3® (SAP Aktiengesellschaft, D-69190 Wall- 
dorf)und/oder Expertensystem gekoppelt wird. Hierdurch 
konnen die Ergebnisse oder die Teilergebnisse des Spracher- 
kennungsvorgangs direkt in ein Datenbank und/oder Exper- 
tensystem eingegeben werden. Weiterhin konnen Informa- 
tionen aus dem Datenbank- und/oder Expertensystem zum 
Spracherkennungsvorgang hinzugezogen werden, beispiels- 
weise zur Vokabulardynamisierung. So konnen durch diese 
Kopplung weitergehende Informationen extrahiert werden, 
die - wie bereits angedeutet - zur Spracherkennung genutzt 
werden. 

[0050] Die aus dem Datenbank- und/oder Expertensystem 
gewonnen Informationen konnen zur Steuerung des dyna- 
mischen Erkennungsvorgangs der Spracherkennung einge- 
setzt werden. So konnten beispielsweise Informationen, die 
in einem Datenbank- bzw. R/3®- System iiber einen Ge- 
sprachspartner abgelegt sind, den Erkennungsvorgang der 
von diesem Gesprachspartner vorliegenden Sprachdaten da- 
hingehend zur Steuerung eingesetzt werden, dass zur 
Spracherkennung Vokabular zugrundegelegt wird, das be- 
reits in vorangegangenen Gesprachen mit diesem Ge- 
sprachspartner eingesetzt wurde. Hierbei konnen auch die 
wahrend dem aktuellen Gesprach erkannten Sprachdaten in 
das Datenbank- bzw. R/3®-System oder in eine entspre- 
chende Datenbank abgespeichert werden und — schon wah- 
rend des Gesprachs den Vokabelschatz dieses Gesprachs- 
partners bei der Spracherkennung dynamisch erweitern. 
[0051] Nun ist grundsatzlich vorgesehen, die insbeson- 
dere aus der Sprachdatenerkennung gewonnenen Informa- 
tionen zu speichern. In ganz besonderes bevorzugter Weise 
ist zusatzlich oder alternativ hierzu vorgesehen, Informatio- 
nen in Form einer graft schen und/oder orthographischen Re- 
presentation zur Verfiigung zu stellen. Dies kann fiir Infor- 
mationen vorgesehen sein, die gegebenenfalls zeitversetzt 
von einem mit einem Gesprachsannahmesystem aufge- 
zeichneten Gesprach stammen. Dies konnte allerdings auch 
fiir Informationen einer Spracherkennung von Gesprachsda- 
ten zutreffen, die von einem Gesprach zwischen zwei oder 
mchrcrcn Gcsprachspartncrn stammen. Hierbei konnen cnt- 
weder alle Informationen des Gesprachs, d. h. sozusagen je- 
des Wort, oder lediglich extrahierte und/oder selektierte In- 
formationen hieraus, die fiir die jeweilige Anwendung des 
erfindungsgemaBen Verfahrens gerade zweckmaBig sind, 
angezeigt werden. Das zur Verfiigung Stellen der Informa- 
tionen konnte beispielsweise auf einer Ausgabeeinheit eines 
Computers, z. B. eines Monitors, auf einem Bildschirm oder 
Fernseher erfolgen. Auch die Ausgabe der Informationen 
auf einem Handy-Display konnte vorgesehen sein. 
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[0052] Ganz allgemein ist vorgesehen, die Informationen 
zeitversetzt zur Verfiigung zu stellen. Dies wird insbeson- 
dere bei Gesprachsinformationen der Fall sein, die von ei- 
nem Gesprachs annahmes)'stem stammen, wo also eine zeit- 
gleiche Spracherkennung bzw. Informationsauswertung 5 
nicht erforderlich ist. Altemativ hierzu ist in bevorzugter 
Wcisc vorgesehen, die Informationen nahczu zcitglcich, 
d. h. "Online" zu erkennen und/oder dem Gesprachspartner 
zur Verfugung zu stellen. Dies ist insbesondere dann der 
Fall, wenn Sprachdaten eines Gesprachs zwischen zwei Ge- 10 
sprachspartnern erkannt bzw. analysiert werden. Hierbei 
konnen die Informationen entweder einem oder beiden bzw. 
alien Gesprachspartnern zur Verfugung gestellt werden, je 
nach dem welches Ziel die Anwendung des erfindungsge- 
maBen Verfahrens verfolgt. Das Online zur Verfugung Stel- 15 
len der Informationen konnte allerdings auch in Verbindung 
mit einem Gesprachs annahmesy stem erfolgen, beispiels- 
weise wenn bei einer Rundfunk- oder Fernsehsendung eine 
"Live-Umfrage" nach nur kurzer Zeit ausgewertet sein 
muss. 20 
[0053] Nun konnte der Gesprachspartner, dem die Infor- 
mationen wahrend des Gesprachs zur Verfugung gestellt 
werden (der oder jede zweite Gesprachspartner), die Sprach- 
erkennung zumindest teilweise vorgeben, steuern und/oder 
lenken. Hierzu konnten auf einer grafischen Benutzerober- 25 
flache eines entsprechenden Computers bzw. Steuerrechners 
entsprechende Symbole vorgesehen sein, die unterschiedli- 
che Wirkungen auf die Spracherkennung haben und einfach 
und schnell vom dem Gesprachspartner betatigt werden 
konnen. Insbesondere konnte hierbei vorgesehen sein, dass 30 
der Gesprachspartner entsprechende Symbole betatigen 
kann, die mehrere, vom Spracherkennungs system kom- 
mende Ergebnisse als richtig oder falsch klassifizieren bzw. 
auswahlen konnen. Letztendlich kann so der eine Ge- 
sprachspartner hierdurch das Erkennungs system auf die 35 
Stimme des anderen Gesprachspartners schulen, so dass bei 
einem langer andauernden Gesprach das Spracherkennungs- 
system zumindest weitgehend die Sprachdaten des anderen 
Gesprachspartners erkennen kann. Weiterhin konnen ent- 
sprechende Symbole vorgesehen sein, die eine Annahme 40 
oder Ablehnung von abzuspeichernden Informationen als 
Ergebnis der Spracherkennung zur Folge haben. 
[0054] Weiterhin konnte beispielsweise vorgesehen sein, 
dass der Gesprachspartner das Vokabular fur die Spracher- 
kennung, oder die Reihenfolge der Anwendung der unter- 45 
schiedlichen Spracherkennungsmethoden vorgibt. 
[0055] Insbesondere bei einer Kopplung des Spracherken- 
nungs systems mit einem Datenbank- und/oder Expertensy- 
stem konnte vorgesehen sein, dass fiir jeden Gesprachspart- 
ner ein Benutzerprofil angelegt oder schon abgespeichert ist. 50 
Zur Spracherkennung eines weiteren Gesprachs mit diesem 
Gesprachspartner konnte dieses Benutzerprofil automatisch 
geladen werden. Dariiber hinaus ist auch denkbar, dass der 
Gesprachspartner, dem die Informationen zur Verfugung ge- 
stellt werden, dieses Benutzerprofil ladt. In einem Benutzer- 55 
profil kann insbesondere der Erkennungsmodus der Sprach- 
erkennung, ein spezieller Vokabularschatz oder ahnliches 
abgespeichert sein. 

[0056] In besonders bevorzugter Wcisc werden neben den 
extrahierten Sprachinformationen noch Informationen des 60 
Datenbank- und/oder Expertensystems extrahiert zur Verfii- 
gung gestellt. Diese Vorgehensweise konnte beispielsweise 
im Einsatz eines Call- Centers angewandt werden. Hierbei 
ist der das Gesprach entgegennehmende Gesprachspartner, 
im folgenden Agent genannt, derjenige, dem die extrahier- 65 
ten Informationen zur Verfugung gestellt werden. So kon- 
nen dem Agent neben den erkannten und extrahierten Infor- 
mationen aus dem Spracherkennungsprozess auch weiterge- 
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hende Informationen, beispielsweise iiber den Anrufer, des- 
sen Tatigkeitsfeld u. s. w. ebenfalls zur Verfugung gestellt 
werden, so dass in besonders vorteilhafter Weise der Agent 
noch vor Beendigung des Gesprachs mehr Informationen er- 
halt, als eigentlich in dem Gesprach ausgetauscht wurden. 
Hierdurch kann der Agent auch andere Themengebiete an- 
sprcchen, die nicht vom Anrufer aus angesprochen sind, wo- 
durch dem Anrufer in besonders vorteilhafter Weise das Ge- 
fiihl vermittelt wird, dass der Agent des Call-Centers den 
Anrufer nebst seinem Tatigkeitsgebiet personlich kennt. 
Durch diese Vorgehensweise kann auch in vorteilhafter 
Weise eine Beratung des Anrufers intensiver und/oder effek- 
tiver durchgefuhrt werden. 

[0057] Zur einfachen Bedienung durch einen Gesprachs- 
partner konnten die entsprechenden Ausgabemodule fur die 
extrahierten Informationen und/oder die Symbole fur die 
Steuerung bzw. Lenkung der Spracherkennung in eine Ge- 
samtoberflache und/oder in ein Gesamtprogramm eines 
Computerprogramms eingebunden sein. Hierdurch hat bei- 
spielsweise ein Agent eines Call-Centers lediglich eine zen- 
trale Anwendung bzw. ein zentrales Programm zu bedienen, 
so dass letztendlich auch hierdurch die Effizienz des Ge- 
samtsystems erhoht wird. 

[0058] Das erfindungsgemaBe Verfahren konnte in weiter 
vorteilhafter Weise zum Schulen von Agenten eines Call- 
Centers eingesetzt werden. So konnte beispielsweise gerade 
aufgrund der Informationen, die iiber einen Anrufer in ei- 
nem Datenbank- und/oder Expertensystem gespeichert sind, 
die Gesprachsstrategie des Agenten geschult werden. Ein 
Ziel hierbei konnte beispielsweise sein, dass der Agent eines 
Call- Centers einerseits lernt ein erfolgreiches Verkaufsge- 
sprach mit einem Anrufer zu absolvieren und andererseits 
wichtige Daten iiber den Anrufer - entweder bereits gespei- 
chert e oder in dem Gesprach gewonnene Informationen - 
dem Gesamtsystem zuzufiihren oder in dem Gesamtsysteni 
abzuspeichern, so dass auch die Schnelligkeit eines Agenten 
eines Call-Centers in der Gesprachsabwicklung geschult 
werden kann. 

[0059] In ganz besonders vorteilhafter Weise wird das 
Spracherkennungssystem auf die Stimme eines Gesprachs- 
partners trainiert. Im Fall eines Call-Centers ist dies der 
Agent des Call-Centers, der praktisch bei jedem Gesprach 
mit dem Spracherkennungssystem interagiert. Somit konnen 
zumindest die Sprachdaten des einen Gesprachspartners 
bzw. des Agents mit einer optimierten Erkennungsrate er- 
kannt und/oder analysiert werden. Die Erkennungsrate des 
Spracherkennungssystems kann in weiter vorteilhafter 
Weise auch dadurch gesteigert werden, dass der eine Ge- 
sprachspartner bzw. der Agent des Call-Centers einzelne, 
fiir den Gesprachspartner bzw. Agent wichtige Worte wie- 
derholt. Somit kann das Spracherkennungssystem diese 
nunmehr vom Gesprachspartner, auf den das Spracherken- 
nungssystem trainiert ist, mit einer hohen Erkennungsrate 
richtig erkannt bzw. analysiert werden. 

[0060] Es gibt nun verschiedene Moglichkeiten, die Lehre 
der vorliegenden Erfindung in vorteilhafter Weise auszuge- 
stalten und weiterzubilden. Dazu ist einerseits auf die dem 
Patentanspruch 1 nachgeordneten Patentanspruche und an- 
dererseits auf die nachfolgcndc Erlautcrung der bevorzugten 
Ausfiihrungsbeispiele der Erfindung anhand der Zeichnung 
zu verweisen. In Verbindung mit der Erlauterung der bevor- 
zugten Ausfiihrungsbeispiele der Erfindung anhand der 
Zeichnung werden auch im Allgemeinen bevorzugte Ausge- 
staltungen und Weiterbildungen der Lehre erlautert. In der 
Zeichnung zeigen 

[0061] Fig. 1 eine schematische Darstellung einer ersten 
Konfiguration zur Durchfiihrung des erfindungsgemaBen 
Verfahrens, 
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[0062] Fig, 2 eine schematische Darstellung einer zweiten 
Konfiguration zur Durchfuhrung des erfindungsgemaBen 
Verfahren s, 

[0063] Fig. 3 eine schematische Darstellung eines Aus- 
fiihrungsbeispiels eines Spracherkennungs systems und 5 
[0064] Fig. 4 eine schematische Darstellung einer weite- 
rcn Konfiguration zur Durchfiihrung dcs erfindungsgema- 
Ben Verfahrens. 

[0065] Fig. 1 zeigt schematisch einen ersten Gesprachs- 
partner 1 und einen zweiten Gesprachspartner 2, wobei die 10 
beiden Gesprachspartner 1, 2 ein Telefongesprach fiihren. 
Die Telefonverbindung ist mit dem Bezugszeichen 3 ange- 
deutet. Sprachdaten des Gesprachs wird liber die Verbin- 
dung 4 einem Spracherkennungssystem 5 zugefiihrt. 
[0066] ErfindungsgemaB wird zumindest eine Unter- 15 
menge der Sprachdaten erkannt und extrahiert. Das Ergeb- 
nis der Spracherkennung wird dem zweiten Gesprachspart- 
ner 2 iiber Verbindung 6 zur Verfugung gestellt. Die Verbin- 
dung 6 kann beispielsweise auch eine Sichtverbindung zu 
einem Biidschirm sein. 20 
[0067] In Fig. 2 ist eine erfindungsgemaBe Konfiguration 
gezeigt, bei der ein Gesprachspartner 1 mit einem Ge- 
sprachs annahmesysteme 7 iiber eine Telefonverbindung 3 
telefoniert, bzw. telefoniert hat, und das Gesprachsannah- 
mesystem 7 das Gesprach ein einen zweiten Gesprachspart- 25 
ner 2 weitergeleitet hat. Das Gesprachsannahmesystem 7 ist 
hierbei als ein automatisches Interactive Voice Response 
System ausgefiihrt. Die Spracherkennung 5 sowie die Spei- 
cherung einerseits der Sprachdaten und andererseits der 
hieraus extrahierten Informationen ist ebenfalls in dem Ge- 30 
sprachsannahmesystem 7 vorgesehen. Das Gesprachsannah- 
mesystem 7 ist ein Computer. 

[0068] Bei dem Spracherkennungssystem 5 kann es sich 
auch um mehrere Computer handeln, wie in Fig. 3 schema- 
tisch gezeigt wird. Im Konkreten handelt es sich um ein 35 
Computer-Netzwerksystem, auf dem die Spracherkennung 
parallel ausgefiihrt wird. Die Sprachdaten werden iiber die 
Verbindung 4 dem Spracherkennungssystem 5 zugefiihrt. 
Die Sprachdaten werden von dem Eingangs-/Ausgangs ser- 
ver 8 iiber das Netzwerk weiterverteilt. 40 
[0069] So werden die Sprachdaten iiber Verbindung 9 ei- 
nem Datenspeicher 10 zugefiihrt. Weiterhin werden die 
Sprachdaten iiber Verbindung 11 dem Baseform-Server 12 
sowie iiber Verbindung 13 den drei Recognition- Servern 14 
zugefiihrt. Der Baseform-Server 12 dient hierbei zur Bereit- 45 
stellung der erforderlichen phoned schen Aussprachetran- 
skriptionen. Uber Verbindung 15 ist ebenfalls ein Sprachda- 
tenaustausch zwischen Baseform-Server 12 und den drei 
Recognition- Servern 14 vorgesehen. 

[0070] Die Spracherkennung auf den Recognition-Ser- 50 
vern 14 wird hierbei parallel ausgefiihrt, und zwar fiihrt ei- 
ner der drei Recognition-Server 14 eine Diktaterkennung, 
der andere Recognition-Server 14 eine Grammatikerken- 
nung und schlieBlich der dritte Recognition- Server 14 eine 
Keyword-Spotting-Erkennung aus. Demgemass werden die 55 
drei unter schiedlichen Methoden der Spracherkennung 
quasi parallel eingesetzt, die unterschiedlichen Spracher- 
kennungsmethoden benotigen geringfugig unterschiedliche 
Rcchcnzcitcn, so dass kcinc zcitglcichc Parallclisicrung im 
strengen Sinn vorliegt. 60 
[0071] Falls die Spracherkennung wiederholt ausgefiihrt 
wird, werden die auf dem Datenspeicher 10 gespeicherten 
Original-Sprachdaten des Gesprachs von dem Eingangs/ 
Ausgangsserver 8 angefordert und erneut auf den Baseform- 
Server 12 und die Recognition- Server 14 verteilt. 65 
[0072] In vorteilhafter Weise ist das Spracherkennungssy- 
stem 5 sowie der Spracherkennungsvorgang mit einem Da- 
tenbanksystem 16 iiber die Verbindungen 17, 18 gekoppelt. 
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Durch diese Kopplung werden weitergehende Informatio- 
nen extrahiert. So werden die aus dem Datenbanksystem 16 
gespeicherten und abgerufenen Informationen iiber den Ge- 
sprachspartner 1 dazu verwendet, den Spracherkennungs- 
vorgang zu unterstiitzen. Hierzu wird dem Recognition-Ser- 
ver 14, auf dem die Diktaterkennung lauft, ein Vokabular 
zur Vcrfiigung gestellt, das auf dem Datenbanksystem 16 
gespeichert ist und im Rahmen eines vorherigen Gesprachs 
mit dem Gesprachspartner 1 in Verbindung gebracht wurde. 
[0073] In Fig. 4 ist schematisch gezeigt, dass dem Ge- 
sprachspartner 2 die Informationen des Spracherkennungs- 
sy stems 5 nebst den Informationen des Datenbanksy stems 
in Form einer graphischen und orthographischen Represen- 
tation auf dem Monitor 19 des Computers 20 zur Verfugung 
gestellt werden. Die Reprasentation der Informationen er- 
folgt hierbei wahrend des Gesprachs. 

[0074] Der Gesprachspartner 2 kann ebenfalls iiber den 
Computer 20 bei dem Spracherkennungsvorgang eingreifen 
und diesen derart steuern, dass ein optimales Spracherken- 
nungsergebnis erzielt werden kann. Sowohl die graphische 
und orthographische Reprasentation der extrahierten 
Sprachinformationen als auch die Steuerung des Spracher- 
kennungsvorgangs erfolgt mit einer Benutzerschnittstelle, 
die auf dem Computer 20 nebst Monitor 19 dem Gesprachs- 
partner 2 zur Verfugung steht. Hierdurch kann der als Agent 
eingesetzte Gesprachspartner 2 in einem Call-Center eine 
optimale Anruferberatung durchfiihren. 
[0075] AbschlieBend sei ganz besonders darauf hingewie- 
sen, dass die voranstehend erorterten Ausfiihrungsbeispiele 
lediglich zur Beschreibung der beanspruchten Lehre dienen, 
diese jedoch nicht auf die Ausfiihrungsbeispiele einschran- 
ken. 

Patentanspriiche 

1. Verfahren zur Behandlung von Sprachdaten aus ei- 
nem Gesprach zwischen einem ersten menschlichen 
und einem oder mehreren zweiten menschlichen Ge- 
sprachspartnern und/oder einem Gesprachsannahme- 
system oder zwischen einem ersten menschlichen und 
einem oder mehreren zweiten menschlichen Ge- 
sprach spartnern, bei dem aus dem Gesprach Sprachda- 
ten erzeugt werden, dadurch gekennzeichnet, 

- und dass die Sprache des ersten Gesprachspart- 
ners automatisch erkannt wird 

- dass die Sprachdaten ganz oder teilweise mit- 
tels eines automatischen Spracherkennungssy- 
stems analysiert und in Text umgewandelt wird. 

2. Verfahren nach Anspruch 1, wobei das Gesprach 
automatisch an eine fiir der erkannte Sprache vorgese- 
hene Annahmestelle weitergeleitet wird. 

3. Verfahren nach Anspruch 1 oder 2, wobei die 
Spracherkennung wahrend eines Gesprachs im Hinter- 
grund durchgefuhrt wird. 

4. Verfahren nach Anspruch 2 oder 3, wobei der erste 
Gesprachspartner wahrend der Weiterleitung oder bei 
Nicht verfiigbarkeit von Annahmestellen mit Hilfe von 
Sprachprompts automatisch informiert wird. 

5 . Verfahren nach einem oder mehreren der Anspriichc 
1 bis 4, wobei die Sprachdaten ganz oder teilweise ei- 
ner Frequenzanalyse unterzogen werden. 

6. Verfahren nach Anspruch 5, wobei der Text und 
eine graphische Darstellung von Ergebnissen der Fre- 
quenzanalyse auf einem Anzeigegerat ausgegeben 
wird. 

7. Verfahren nach Anspruch 6, wobei die Ausgabe des 
Textes und der Ergebnisse der Frequenzanalyse online 
erfolgt. 
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8. Verfahren nach einem oder mehreren der Anspriiche 
1 bis 7, wobei einzelne Worter des Textes einzelnen 
zeitlichen Abschnitten der Frequenzanalyse zugeord- 
net werden. 

9. Verfahren nach Anspruch 8, wobei mindestens die 5 
einzelnen Worter und die zugeordneten Abschnitte der 
Frequenzanalyse gcspcichcrt werden. 

10. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 9, wobei das Frequenzspektrum das, zu einem 
vorwahlbaren Wort gehort, mit bereits gespeicherten 10 
Frequenzspektren des gleichen Wortes aus einem ande- 
ren Gesprach verglichen wird, und dass auf diese Weise 
die Identitat eines Gesprachspartners ermittelt wird. 

1 1 . Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 10, 15 
wobei der erhaltene Text automatisch auf Schliissel- 
worter untersucht wird und 

wobei anhand der erkannten Schliisselworter dem Ge- 
sprach automatisch eine Klassifikation zugeordnet 
wird. 20 

12. Verfahren nach Anspruch 11, wobei die Schliissel- 
worter und Klassifikationen in einer oder mehreren Ta- 
bellen abgespeichert und einander zugeordnet sind. 

13. Verfahren nach Anspruch 11 oder 12, wobei die 
Klassifikation auf den Zweck des Anrufs gerichtet ist. 25 

14. Verfahren nach einem oder mehreren der Ansprii- 
che 11 bis 13, wobei die Klassifikation auf die Stim- 
mung des ersten Gesprachspartners gerichtet ist. 

15. Verfahren nach einem oder mehreren der Ansprii- 
che 11 bis 14, wobei die ermittelte Klassifikation dem 30 
oder jeden zweiten Gesprachspartner online oder zeit- 
versetzt zur Verfugung gestellt wird. 

16. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 15, wobei das Gesprach ein Telefongesprach 
ist und der zweite Gesprachspartner vom ersten ange- 35 
rufen wurde. 

17. Verfahren nach Anspruch 16, wobei der Telefon- 
anruf von einem automatischen Gesprachsannahmesy- 
stem (7) entgegengenommen wurde, und das Ge- 
sprachsannahmesystem (7) den oder jeden zweiten 40 
menschlichen Gesprachspartner (2) hinzuschaltet oder 
das Gesprach an den oder jeden zweiten menschlichen 
Gesprachspartner (2) weiterleitet. 

18. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 15, wobei ein Gesprachsannahmesystem (7) 45 
automatisch eine Gesprachsverbindung mit dem ersten 
Gesprachspartner (1) herstellt, vorzugs weise durch ei- 
nen Telefonanruf. 

19. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 18, wobei der zeitliche Verlauf des Gesprachs 50 
aufgezeichnet wird und der erkannte Text dem zeitli- 
chen Verlauf zugeordnet und gespeichert wird. 

20. Verfahren nach Anspruch 19, wobei eine graphi- 
sche Darstellung der zeitlichen Abfolge des erkannten 
Text auf einem Anzeigegerat ausgegeben wird. 55 

21. Verfahren nach Anspruch 19 oder 20, wobei die 
Analyse und/oder die graphische Darstellung online 
durchgefuhrt wird. 

22. Verfahren nach einem oder mehreren der Ansprii- 
che 19 bis 21, wobei einzelne Worter des erkannten 60 
Textes einzelnen Abschnitten des zeitlichen Verlaufs 
zugeordnet werden. 

23. Verfahren nach Anspruch 22, wobei die einzelnen 
Worter mit den zugeordneten Abschnitten gespeichert 
werden. 65 

24. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 23, wobei eine Frequenzanalyse der Stimmen 
des oder jeden Gesprachspartners durchgefuhrt wird. 
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25. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 24, wobei der erkannte Text dem jeweiligen 
Gesprachspartner zugeordnet wird. 

26. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 25, wobei dem erkannten Text vSchlusselwor- 
ter aus einer voreinrichtbaren Tabelle zugeordnet wer- 
den. 

27. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 26, wobei das Gesprachsannahmesystem (7) 
als ein Interactive Voice Response System (IVRS), vor- 
zugs weise als ein automatisches IVRS, arbeitet. 

28. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 27, wobei der erste Gesprachspartner (1) mit 
vorgegebenen Gesprachsstrukturen konfrontiert wird. 

29. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 28, wobei als Gesprachsannahmesystem (7) 
und/oder als Spracherkennungssystem (5) mindestens 
ein Computer eingesetzt wird. 

30. Verfahren nach Anspruch 29, wobei die Spracher- 
kennung auf einem oder auf mehreren Computern (12, 
14) ausgefuhrt wird, vorzugsweise parallel. 

31. Verfahren nach Anspruch 29 oder 30, wobei die 
Spracherkennung in Form von mehreren Prozessen auf 
einem Computer oder verteilt auf mehrere Prozessoren 
eines Computers parallel ausgefuhrt wird. 

32. Verfahren nach einem oder mehreren der Ansprii- 
che 29 bis 31, wobei die Spracherkennung in einem 
Coniputer-Netzwerksystem parallel ausgefuhrt wird. 

33. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 32, wobei die Sprachdaten des Gesprachs zu- 
mindest weitgehend unverandert gespeichert werden. 

34. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 33, wobei Informationen iiber den aktuellen 
Gesprachszustand bei der Spracherkennung beriick- 
sichtigt werden. 

35. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 34, wobei die Spracherkennung individuell 
auf einen Analyseauftrag ausgerichtet wird. 

36. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 35, wobei zur Spracherkennung Methoden 
der Diktat-, Grammatik-, Einzelworterkennung und/ 
oder des Keyword-Spotting eingesetzt werden. 

37. Verfahren nach Anspruch 36, wobei die unter- 
schiedlichen Methoden der Spracherkennung parallel 
eingesetzt werden. 

38. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 37, wobei die Spracherkennung wiederholt 
ausgefuhrt wird. 

39. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 38, wobei eine dynamische Anpassung der 
Spracherkennung erfolgt. 

40. Verfahren nach Anspruch 39, wobei das Vokabular 
zur Spracherkennung variiert und/oder angepasst wird. 

41. Verfahren nach Anspruch 39 oder 40, wobei zur 
dynamischen Anpassung der Spracherkennung in ei- 
nem ersten Erkennungsschritt die Sprachdaten klassifi- 
ziert werden, vorzugsweise mit Methoden des Key- 
word-Spotting. 

42. Verfahren nach Anspruch 41, wobei in einem wci- 
teren Erkennungsschritt die Sprachdaten unter Hinzu- 
ziehung von speziellem Vokabular erneut untersucht 
werden. 

43. Verfahren nach Anspruch 42, wobei iterativ wei- 
tere Erkennungsschritte durchgefuhrt werden, die vor- 
zugsweise iiber Erkennungswahrscheinlichkeiten ge- 
steuert werden. 

44. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 43, wobei das Spracherkennungssystem und/ 
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oder der Spracherkennungsvorgang mit einem Daten- 
banksystern (16) und/oder Experten system gekoppelt 
wird. 

45. Verfahren nach Anspruch 44, wobei durch die 
Kopplung weitergehende Informationen extrahiert 5 
werden. 

46. Verfahren nach Anspruch 45, wobei die aus dem 
Datenbanksystem (16) und/oder Expertensystem ge- 
wonnenen weitergehenden Informationen, beispiels- 
weise liber den ersten Gesprachspartner (1), den 10 
Spracherkennungsvorgang dynamisch steuern. 

47. Verfahren nach einem oder mehreren der Ansprii - 
che 1 bis 46, wobei das Ergebnis der Analyse und/oder 
die weitergehenden Informationen in Form einer gra- 
phischen und/oder orthographischen Representation 15 
zur Verfiigung gestellt werden. 

48. Verfahren nach einem oder mehreren der Ansprii - 
che 1 bis 47, wobei das Ergebnis der Analyse und/oder 
die weitergehenden Informationen zeitversetzt zur Ver- 
fiigung gestellt werden. 20 

49. Verfahren nach einem oder mehreren der Ansprii - 
che 1 bis 47, wobei die Analyse und/oder die Extrak- 
tion der weitergehenden Informationen nahezu zeit- 
gleich (online) durchgefuhrt und/oder dem zweiten Ge- 
sprachspartner (2) zur Verfiigung gestellt werden. 25 

50. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 49, wobei die Informationen wahrend des Ge- 
sprachs dem zweiten Gesprachspartner (2) zur Verfii- 
gung gestellt werden. 

51. Verfahren nach einem oder mehreren der Ansprii- 30 
che 1 bis 50, wobei der zweite Gesprachspartner (2) die 
Spracherkennung zumindest teilweise vorgibt, steuert 
und/oder lenkt. 

52. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 51, wobei der zweite Gesprachspartner (2) Er- 35 
kennungsmodi der Sprachanalyse (5) in Form von Be- 
nutzerprofilen laden kann oder dass diese automatisch 
geladen werden. 

53. Verfahren nach einem oder mehreren der Ansprii- 
che 1 bis 52, wobei neben dem Ergebnis der Sprach- 40 
analyse noch Informationen des Datenbanksy stems 
(16) und/oder Experten systems extrahiert und/oder zur 
Verfiigung gestellt werden. 

54. Verfahren nach einem oder mehreren der Anspru- 
che 1 bis 53, wobei das Ergebnis der Analyse des Ge- 45 
sprachs als Text gespeichert wird. 

55. Verfahren nach einem oder mehreren der Ansprii - 
che 1 bis 53, gekennzeichnet durch den Einsatz in ei- 
nem Call-Center. 

56. Verfahren nach einem oder mehreren der Ansprii- 50 
che 1 bis 55, gekennzeichnet durch die Einbindung in 
eine Gesamtoberflache und/oder in ein Gesamtpro- 
gramm. 

57. Verfahren nach einem oder mehreren der Ansprii - 
che 1 bis 56, gekennzeichnet durch den Einsatz zum 55 
Schulen von Agenten eines Call-Centers. 

58. Verfahren nach einem oder mehreren der Ansprii - 
che 1 bis 57, wobei das Spracherkennungs system (5) 
auf die Stimmc des ersten (1) oder des oder jeden zwei- 
ten Gesprachspartners (2) trainiert wird, vorzugsweise 60 
auf den Agent eines Call-Centers. 

59. Verfahren nach Anspruch 58, wobei die Erken- 
nungsrate des Spracherkennungssystems (5) dadurch 
gesteigert wird, dass der oder jede zweite Gesprachs- 
partner (2) - vorzugsweise der Agent - einzelne, vom 65 
ersten Gesprachspartner (1) gesprochene Worte wie- 
derholt, so dass das Spracherkennungssystem (5) die 
Sprachdaten der irainierlen S limine analysieren kann. 
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60. System zur Durchfiihrung eines Verfahrens nach 
einem oder mehreren der vorstehenden Anspriiche, 
auf wei send 

mindestens eine elektronische Vorrichtung zur 
Erkennung und Extrahierung von Sprachdaten 
(Spracherkennungssystem, 5), die mit einer oder 
mehreren Vorrichtungcn zur Erfassung von 
Sprachdaten (Gesprachsannahmesystem, 7) ver- 
bindbar ist, und 

ein oder mehrere Mittel zur Darstellung und/ 
oder Speicherung von erkannten und/oder extra- 
hierten Sprachdaten, wobei das oder jede s Mittel 
zur Darstellung (19) und/oder Speicherung direkt 
oder indirekt mit der Erkennungs- und Extrahie- 
rungsvorrichtung verbunden ist. 

61. System nach Anspruch 60, wobei das Spracher- 
kennungssystem mit mindestens einem Gesprachsan- 
nahmesystemen verbunden ist. 

62. System nach Anspruch 61, wobei das Spracher- 
kennungssystem mit zwei Gesprachsannahmesyste- 
men verbunden ist. 

63. System nach einem oder mehreren der Anspriiche 
60 bis 62, aufeisend einen Frequenzanalysator. 

64. System nach einem oder mehreren der Anspriiche 
60 bis 63, wobei mindestens ein Gesprachsannahmesy- 
stem ein stationares oder mobiles Telefon umfasst. 

65. System nach einem oder mehreren der Anspriiche 
60 bis 62, wobei mindestens ein Gesprachsannahmesy- 
stem ein IVRS, vorzugsweise ein automatisches IVRS 
ist. 

66. System nach einem oder mehreren der Anspriiche 
60 bis 65, wobei das Spracherkennungssystem einen 
oder mehrere Computer umfasst. 

67. System nach einem oder mehreren der Anspriiche 
60 bis 65, wobei das Gesprachsannahmesystem einen 
oder mehrere Computer umfasst. 

68. System nach Anspruch 66, wobei die mehreren 
Computer in Form eines Netzwerkes verbunden sind. 

69. System nach Anspruch 68, wobei das Netzwerk 
eine Client/Server-Struktur aufweist. 

70. Computerprogramm mit Programmcode-Mitteln, 
um alle Schritte von einem beliebigen Verfahren ge- 
maB einer beliebigen Kombination der Anspriiche 1 bis 
59 auszufiihren, wenn das Programm auf einem Com- 
puter ausgefiihrt wird. 

71. Computerprogrammprodukt mit Programmcode- 
Mitteln, die auf einem computerlesbaren Datentrager 
gespeichert sind, und geeignet sind, ein Verfahren ge- 
maB einer beliebigen Kombination der Anspriiche 1 bis 
59 auszufiihren, wenn sie auf einem Computer ausge- 
fiihrt werden. 

72. Computer mit einem fliichtigen und/oder nicht- 
fliichtigen Speicher, in dem ein Computerprogramm 
nach Anspruch 70 gespeichert ist. 
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